AI

La start-up di intelligenza artificiale Anthropic accusata di fare scraping aggressivo sui dati dei siti web

Gli editori web si lamentano: lo sviluppatore raccoglie contenuti senza autorizzazione per l'addestramento dell'intelligenza artificiale e ignora le richieste di interruzione.

Eulerpool News 28 lug 2024, 13:12

La start-up di intelligenza artificiale Anthropic è accusata di estrarre aggressivamente dati dai siti web per addestrare i propri sistemi, potenzialmente violando i termini di utilizzo degli editori, secondo le parti interessate.

Sviluppatori di IA si affidano a grandi quantità di dati provenienti da diverse fonti per creare grandi modelli linguistici che costituiscono la tecnologia dietro chatbot come ChatGPT di OpenAI e i concorrenti Claude di Anthropic.

Anthropic è stata fondata da ex ricercatori di OpenAI e promette di sviluppare sistemi di intelligenza artificiale "responsabili". Tuttavia, Matt Barrie, CEO di Freelancer.com, accusa l'azienda con sede a San Francisco di essere "il più aggressivo scraper" della sua piattaforma di freelance, che registra milioni di visite giornaliere.

Altri editori web condividono le preoccupazioni di Barrie riguardo al fatto che Anthropic inonda i loro siti e ignora le istruzioni di interrompere la raccolta di contenuti. Secondo Barrie, Freelancer.com ha ricevuto 3,5 milioni di visite da un webcrawler collegato ad Anthropic in quattro ore. "È probabilmente circa cinque volte tanto quanto il numero due", ha detto Barrie.

Le visite da parte di questo bot continuavano ad aumentare, anche dopo che Freelancer.com aveva tentato di negare l'accesso tramite i protocolli standard. Barrie decise quindi di bloccare tutto il traffico proveniente dagli indirizzi IP di Anthropics. "Abbiamo dovuto bloccarli perché non rispettavano le regole di internet," disse Barrie. "Questo flagrante scraping rallenta il sito per tutti gli utenti e, alla fine, danneggia i nostri ricavi.

Anthropic ha comunicato che indagherà sul caso e rispetterà le richieste degli editori di non essere "intrusivi o di disturbo".

La raccolta di dati accessibili al pubblico è generalmente legale, ma può violare i termini di utilizzo dei siti web e risultare costosa per gli operatori dei siti. Kyle Wiens, CEO di iFixit.com, ha dichiarato che il suo sito di riparazioni di elettronica ha ricevuto un milione di accessi dai bot di Anthropics in 24 ore. «Abbiamo molti allarmi per il traffico elevato che svegliano le persone alle 3 del mattino. Questo ha fatto scattare tutti i nostri allarmi», ha detto.

I Termini di Utilizzo di iFixit vietano l'uso dei loro dati per l'apprendimento automatico. "Il mio primo messaggio per Anthropic è: Se usate questi dati per addestrare il vostro modello, è illegale. Il mio secondo messaggio è: Questo non è un comportamento educato su Internet. Il crawling è una questione di etichetta.

Le pagine web utilizzano il protocollo "robots.txt" per tenere i crawler e altri web robot lontani da determinate aree dei loro siti, tuttavia la sua applicazione si basa sul rispetto volontario. Anthropic ha dichiarato che i suoi crawler rispettano le "tecnologie anti-elusione" come i CAPTCHAs e che "la nostra attività di crawling non dovrebbe essere intrusiva o fastidiosa".

Il data scraping è aumentato notevolmente negli ultimi due anni a causa della corsa agli armamenti dell'IA, causando nuovi costi per gli operatori di siti web. "I crawler dell'IA ci hanno causato costi significativi per la larghezza di banda e hanno richiesto molto tempo per gestire gli abusi", ha scritto Eric Holscher, co-fondatore del sito di hosting di documenti Read the Docs, in un post sul blog.

Anthropic ha creato alcuni dei chatbot più avanzati al mondo, concorrendo con ChatGPT di OpenAI, e si posiziona come un attore etico. L'obiettivo dichiarato di Anthropic è lo "sviluppo e la manutenzione responsabile di un'IA avanzata per il beneficio a lungo termine dell'umanità".

Mentre le principali aziende di IA sviluppano modelli sempre più potenti, penetrano più a fondo negli angoli inesplorati di Internet, collaborano con editori o creano dati di addestramento sintetici. OpenAI ha concluso negli ultimi mesi diversi accordi con editori e fornitori di contenuti come Reddit, The Atlantic e il Financial Times. Anthropic non ha annunciato pubblicamente partnership simili.

Le motori di ricerca hanno sempre effettuato molti scraping", ha detto Barrie, "ma con l'addestramento dell'IA generativa è salito a un nuovo livello.

La missione di iFixit è condividere informazioni per incoraggiare le persone all'autoreparazione. „Non siamo contrari all'uso dei nostri contenuti per la formazione sui modelli, vogliamo solo essere parte della conversazione“, ha detto Wiens. „Non sono un crociato su questo tema, sto solo cercando di mantenere un sito web online.“

Fai gli investimenti migliori della tua vita.
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

A partire da 2 €

Novità